[SIGGRAPH 2022] 利用真实数据来提升文档图像矫正性能（有源码）

Original 张家鑫 CSIG文档图像分析与识别专委会 2022-12-15

本文简要介绍SIGGRAPH 2022录用论文“Learning From Documents in the Wild to Improve Document Unwarping”的主要工作。该论文提出一个文档图像校正方法PaperEdge，训练过程能同时利用合成数据以及真实数据，此外还提出了一个更加鲁邦的评价指标Aligned Distortion（AD）以及一个带有文档区域Mask标注的真实场景下的文档图像数据集。

图1 本文方法矫正效果. 其中第一行为输入，第二行为本文方法输出结果.

一、研究背景

文档图像校正在文档数字化以及文档分析中都十分重要。现有的SOTA方案基本都是基于合成数据训练的深度学习方法，导致模型在真实数据上测试时的泛化能力不足，影响矫正性能。因此本文提出在模型训练阶段引入真实数据，以此提升模型的矫正性能。为了用真实数据进行训练，本文提出了DIW（Document-in-the-Wild）数据集，包含5000张带有文档区域Mask标注的真实场景文档图像。本文提出的PaperEdge方法可以基于DIW数据集进行弱监督的训练。此外，考虑到现有的评价指标存在对微小变化过于敏感以及在无纹理区域存在较大误差等问题，本文提出一个更加鲁邦的评价指标AD。

二、方法原理简述

图2 整体流程图

图3 Enet 的弱监督方式

图4 Tnet的自监督方式

图2是本文整体流程图：包含两个子网络对输入的文档图像依次处理。第一个子网络Enet根据文档的边界信息进行矫正，输出一个形变场（Warping Field）对文档进行全局的粗略矫正，将文档图像拉平成四边形；第二个子网络Tnet，输出另一个形变场对Enet的矫正结果进行局部的细粒度矫正。

Enet: Edge-based Unwarping。Enet采用全卷积的Encoder-decoder结构，输入为含有形变的文档图像，输出为2维的形变场。基于合成数据强监督训练的损失函数：

其中为形变场的GT（Ground Truth），由于Enet只根据图像的边缘信息进行矫正，所以优化目标只需要考虑图像边缘，形变场的损失函数只计算涉及图像边缘的部分，上述公式中的B函数即用来提取该部分，前向预测时其余部分的形变场则根据边缘部分插值得到。

基于真实数据弱监督训练的损失函数：

结合图3示意图所示，作者借助输入形变图的文档区域Mask（y）设计了该弱监督训练方式：预测得到的在y上采样应该得到全为True的Mask（m），即上述损失函数的第一项；同时，对应的反向形变场在上m采样应该可以重新得到，即上述损失函数的第二项。

Tnet: Texture-based Unwarping。Tnet的输入为基于Enet形变场矫正后的初步矫正图

，输出为2维的形变场

。基于合成数据强监督训练的损失函数：

其中

为形变场的GT。

基于真实数据自监督训练的损失函数：

结合图4示意图所示，自监督训练的设计基于这样一个先验假设：形变不同、内容相同的图像矫正后应该是一致的平整图。因此作者在预测得到（以为输入）后，对施加一个随机的形变场，得到形变不同、内容相同的，根据预测得到。根据前述先验假设，应失函数。此外，为了训练过程能更好收敛，作者还做了一些等价变换，可等价转化为：

同样地，考虑循环一致性，可以得到最终的函数：

AD: A Robust Evaluation Metric。为了弥补现有指标的不足，本文提出了一个鲁棒性更强的指标AD。计算公式如下：

其中，为了缓解GT和矫正图之间存在的全局差异，AD先进行了一个仿射变换（Affine Transformation），仿射变换参数的获得基于：

此外，为了缓解现有LD指标在无纹理区域存在较大误差的问题，AD根据GT上的梯度计算得到权重，对SIFT Flow的求和过程进行加权，减轻无纹理区域的权重。

三、主要实验结果及可视化结果

图5 MS-SSIM，LD和AD指标的分析对比

图6 Enet和Tnet的部分可视化结果

表1 不同模块以及不同训练方式的消融实验

表2 本文方法与现有方法在DocUNet数据集上的定量比较结果，其中和分别为未用以及使用真实数据的结果

图7 本文方法与现有方法在DocUNet数据集上的可视化比较结果

图8 Tnet与DewarpNet方法在不完整文档图像上的矫正效果

从图5可以看出，AD相比于MS-SSIM更符合视觉直观，对于视觉上细微的差异不会产生大的指标变化；相比LD则可以减轻无纹理区域带来的误差。从图6和表1可以看出Enet和Tnet两个模块的有效性，以及真实数据弱监督以及自监督的带来的提升。从表2和图7可以看出本文方法对比现有方法的优越性。从图8可以看出Tnet可以处理一些不完整的文档图像。

四、总结及讨论

该论文创新性地提出了一种文档图像矫正方法，PaperEdge。可以同时利用合成数据和真实数据进行训练。同时还提出了一个新的评价指标AD，缓解了现有评价指标MS-SSIM和LD存在的问题。此外还提出了DIW数据集，包含真实文档图像以及对应的文档区域Mask标注。PaperEdge同时还能处理非完整的文档图像，相比现有方法更加灵活。

五、相关资源

lLearning From Documents in the Wild to Improve Document Unwarping论文地址:
https://dl.acm.org/doi/abs/10.1145/3528233.3530756
lLearning From Documents in the Wild to Improve Document Unwarping 项目地址:
https://github.com/cvlab-stonybrook/PaperEdge
lDIW数据集下载地址：
https://drive.google.com/file/d/1qAmLurt6bK0ro8PnRz6rBgVs1rfrsdKi/view?usp=sharing

原文作者: Ke Ma, Sagnik Das, Zhixin Shu, Dimitris Samaras

撰稿：张家鑫

编排：高学

审校：殷飞

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。

扫码关注，获取最新OCR资讯

六大火药桶：世界种种动荡背后的历史逻辑

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

“顺为系”资本继续减持南芯科技，快充芯片龙头面临过于依赖大客户压力

八段锦“毒害”了多少中国女人，还有很多人不知道……

[SIGGRAPH 2022] 利用真实数据来提升文档图像矫正性能（有源码）

[IEEE TIP 2022] | 基于EM算法的混合监督场景文本检测

[ACM 2022] 基于判别式和生成式的自监督文本图像识别方法

[TMM 2022] | 基于多层次跨模态模仿学习的跨语言文本图像识别与翻译方法

[ACM MM 2022] SPTS: Single-Point Text Spotting（已开源）

论文推荐|[ACM MM 2022] 基于边缘去除和迭代式内容矫正的复杂文档图像校正

ECCV 2022 Oral | 理解艺术字：用于场景文字识别的角点引导Transformer

ECCV2022 | 基于对比学习和多信息表征的端到端视频OCR模型（有源码）

[ECCV 2022] 具有计数感知的手写数学公式识别算法（有源码）

[CVPR 2022]针对场景文本检测的视觉语言模型预训练

[CVPR 2022] 内容感知的文字标志图像生成方法

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣

六大火药桶：世界种种动荡背后的历史逻辑

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

“顺为系”资本继续减持南芯科技，快充芯片龙头面临过于依赖大客户压力

八段锦“毒害”了多少中国女人，还有很多人不知道……

生成图片，分享到微信朋友圈

​[SIGGRAPH 2022] 利用真实数据来提升文档图像矫正性能（有源码）

您可能也对以下帖子感兴趣

[SIGGRAPH 2022] 利用真实数据来提升文档图像矫正性能（有源码）